#!/bin/bash

# 参数说明：
# max_model_len 模型输出长度，越长，显存占用越多，DFBenchmark来说12000够了
# tensor-parallel-size 是单机多卡的数量
# served-model-name 是调用的时候的模型名称
# enable-reasoning 允许把思考过程放入reasoning_content字段
# reasoning-parser 深度思考解析器
vllm serve \
  --api-key YOUR_API_KEY \
  --host 0.0.0.0 --port 8000 \
  --max_model_len=12000 \
  --tensor-parallel-size=8 \
  --served-model-name=ds-r1-70b \
  /HF_MODEL_PATH/deepseek-ai/DeepSeek-R1-Distill-Llama-70B \
  --enable-reasoning \
  --reasoning-parser deepseek_r1
